Projekt - KM4

Zbiór danych: https://archive.ics.uci.edu/ml/datasets/Polish+companies+bankruptcy+data

Przygotowanie modelu

Przygotowanie danych

Wytrenowanie modelu

Wykorzystany model to XGBClassifier. Po optymalizacji hiperparametrów uzyskaliśmy f1-score:

Model zdaje się być przeuczony, jednak wszystkie próby naprawy tego (zmniejszanie max_depth i learning_rate, zwiększanie min_child_weight, gamma, lambda) znacząco osłabiały wynik modelu na zbiorze testowym.

Interpretacja

Do interpretacji będziemy korzystać ze zbioru walidacyjnego.

Shap

Kolumny na wykresie są uporządkowane od tych co mają największy wpływ do tych z najmniejszym. Rzuca się w oczy często powtarzający się mianownik total assets.

Dalex

Wyjaśnianie pojedyńczych predykcji

Wybieramy trzy obserwacje: A i B, gdzie firma nie zbankrutowała, oraz C, gdzie firma zbankrutowała.

A

B

C - firma, która zbankrutowała

Na powyższych wykresach najczęściej powtarza się zmienna current assets - inventory / short-term liabilities i to ona popycha predykcję we właściwym kierunku. Jednak warto zauważyć, że wszystkie pozostałe zmiennne all other factors zwykle stanowi całkiem potężny czynnik. To chyba znaczy, że dużo zmiennych jest ważnych, ma wpływ.

Wyjaśnianie na poziomie modelu

Spójrzmy na variable importance oraz wykresy ceteris paribus.

Variable importance

Mocno rzuca się w oczy bardzo znikomy wpływ poszczególnych zmiennych - jedna zmienna chyba nie ma mocy całkowicie zmienić predykcji.

Choć większość wykresów przedstawia proste linie, to jednak w kilku przypadkach widzimy logiczną zależność, a mianowicie, im niższe:

Podsumowanie